Telegram Group & Telegram Channel
Обратная сторона игры в Atari

Посмотрим на кривую обучения, приведённую в статье, для игры Breakout - это та, где нужно отбивать красный "кубик" доской, которую вы перемещаете в нижней части экрана.

Одна эпоха по оси времени - это 50000 апдейтов весов, то есть нужно больше миллиона апдейтов, чтобы выучить элементарную стратегию - поддерживать доску на одном уровне с мячом.

В режиме Supervised learning при размеченном датасете мы бы могли обучить такую нейросеть гораздо быстрее и используя гораздо меньше данных - всего для обучения в каждой игре было сыграно по 10 миллионов кадров. Но в рамках поставленной задачи предполагается, что такого датасета у нас нет, и нейросеть учится сама методом проб и ошибок, что и делает процесс обучения чудовищно жадным в плане данных.

Отмечу, что революции в data-efficiency с тех пор не произошло, и все следующие годы количество данных для обучения только росло. Но про те безумные числа мы поговорим в другой раз.

Конечно, это не приговор - всего лишь нужно научиться переносить знания между доменами и средами. А это уже совсем другая история.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/19
Create:
Last Update:

Обратная сторона игры в Atari

Посмотрим на кривую обучения, приведённую в статье, для игры Breakout - это та, где нужно отбивать красный "кубик" доской, которую вы перемещаете в нижней части экрана.

Одна эпоха по оси времени - это 50000 апдейтов весов, то есть нужно больше миллиона апдейтов, чтобы выучить элементарную стратегию - поддерживать доску на одном уровне с мячом.

В режиме Supervised learning при размеченном датасете мы бы могли обучить такую нейросеть гораздо быстрее и используя гораздо меньше данных - всего для обучения в каждой игре было сыграно по 10 миллионов кадров. Но в рамках поставленной задачи предполагается, что такого датасета у нас нет, и нейросеть учится сама методом проб и ошибок, что и делает процесс обучения чудовищно жадным в плане данных.

Отмечу, что революции в data-efficiency с тех пор не произошло, и все следующие годы количество данных для обучения только росло. Но про те безумные числа мы поговорим в другой раз.

Конечно, это не приговор - всего лишь нужно научиться переносить знания между доменами и средами. А это уже совсем другая история.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/19

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

Knowledge Accumulator from tw


Telegram Knowledge Accumulator
FROM USA